Wang Haihua
🍈 🍉🍊 🍋 🍌
要用数量化的方法对事物进行分类,就必须用数量化的方法描述事物之间的相似程度。一个事物常常需要用多个变量来刻画。如果对于一群有待分类的样本点需用$p$个变量描述,则每个样本点可以看成是 $R^{p}$ 空间中的一个点。因此,很自然地想到可以用距离来度量样本点间的相似程度。
记$\Omega$ 是样本点集,距离 $d(⋅,⋅)$ 是 $\Omega \times \Omega \rightarrow R^{+}$的一个函数,满足条件:
$d(x, y) \geq 0, \quad x, y \in \Omega$
$d(x, y)=0$ 当且仅当 $x=y$
$d(x, y)=d(y, x), x, y \in \Omega$
$d(x, y) \leq d(x, z)+d(x, y), x, y, z \in \Omega$
这一距离的定义是我们所熟知的,它满足正定性,对称性和三角不等式。在聚类分析中,对于定量变量,最常用的是 Minkowski 距离
$$ d_{q}(x, y)=\left[\sum_{k=1}^{p}\left|x_{k}-y_{k}\right|^{q}\right]^{\frac{1}{q \mid}}, \quad q>0 $$当 $q=1,2$ 或 $q \rightarrow+\infty$ 时, 则分别得到
1)绝对值距离 $$ d_{1}(x, y)=\sum_{k=1}^{q}\left|x_{k}-y_{k}\right| $$
2)欧式距离 $$ d_{2}(x, y)=\left[\sum_{k=1}^{p}\left|x_{k}-y_{k}\right|^{2}\right]^{\frac{1}{2}} $$
3)chebyshev距离 $$ d_{\infty}(x, y)=\max _{1 \leq k \leq p}\left|x_{k}-y_{k}\right| $$
最常用的是欧氏距离,它的主要优点是当坐标轴进行正交旋转时,欧氏距离是保持不变的。
值得注意的是在采用 Minkowski 距离时,一定要采用相同量纲的变量。如果变量的量纲不同,测量值变异范围相差悬殊时,建议首先进行数据的标准化处理,然后再计算距离。
如果有两个样本类$G1$和$G2$ ,我们可以用下面的一系列方法度量它们间的距离: 1)最短距离法(nearest neighbor or single linkage method) $$ D\left(G_{1}, G_{2}\right)=\min _{x_{i} \in G_{j} \in G_{2}}\left\{d\left(x_{i}, y_{j}\right)\right\} $$ 它的直观意义为两个类中最近两点间的距离。
2)最长距离法(farthest neighbor or complete linkage method) $$ D\left(G_{1}, G_{2}\right)=\max _{x_{i} \in G_{j} \atop y_{j} \in G_{2}}\left\{d\left(x_{i}, y_{j}\right)\right\} $$ 它的直观意义为两个类中最远两点间的距离。
3)重心法(centroid method) $$ D\left(G_{1}, G_{2}\right)=d(\bar{x}, \bar{y}) $$ $ \text { 其中 } \bar{x}, \bar{y} \text { 分别为 } G_{1}, G_{2} \text { 的重心。 } $
4)类平均法(group average method) $$ D\left(G_{1}, G_{2}\right)=\frac{1}{n_{1} n_{2}} \sum_{x_{i} \in G_{1} x_{j} \in G_{2}} d\left(x_{i}, x_{j}\right) $$ 它等于 $G_{1}$ ,$G_{2}$ 中两两样本点距离的平均,式中$n_1$,$n_2$ 分别为 $G_{1}$ ,$G_{2}$ 中的样本点个数。
5)离差平方和法(sum of squares method) 若记 $$ \begin{array}{l}D_{1}=\sum_{x_{i} \in G_{1}}\left(x_{i}-\bar{x}_{1}\right)^{T}\left(x_{i}-\bar{x}_{1}\right), \quad D_{2}=\sum_{x_{j} \in G_{2}}\left(x_{j}-\bar{x}_{2}\right)^{T}\left(x_{j}-\bar{x}_{2}\right) \\ D_{12}=\sum_{x_{k} \in G_{i} \cup G_{2}}\left(x_{k}-\bar{x}\right)^{T}\left(x_{k}-\bar{x}\right)\end{array} $$ 其中 $$ \bar{x}_{1}=\frac{1}{n_{1}} \sum_{x_{i} \in G_{1}} x_{i}, \quad \bar{x}_{2}=\frac{1}{n_{2}} \sum_{x_{j} \in G_{2}} x_{j}, \quad \bar{x}=\frac{1}{n_{1}+n_{2}} \sum_{x_{k} \in G_{1} \cup G_{2}} x_{k} $$ 则定义 $$ D\left(G_{1}, G_{2}\right)=D_{12}-D_{1}-D_{2} $$
事实上,若$G_{1}, G_{2}$ 内部点与点距离很小,则它们能很好地各自聚为一类,并且这两类又能够充分分离(即$D_{12}$很大),这时必然有 $D=D_{12}-D_{1}-D_{2}$ 很大。因此,按定义可以认为,两类$G_{1}, G_{2}$之间的距离很大。
参考资料